1
上下文困境:為何檢索需要轉換
AI025Lesson 2: Data Transformation
00:00

上下文困境 源自於基本的架構不匹配:人類資料是 單一且無結構的,而大型語言模型(LLMs)則是 受限於詞元數量且基於注意力機制的。若未經過轉換,直接將原始資料輸入大語言模型會導致「上下文污染」,使無關的雜訊降低推理表現。

原始資料轉換引擎召回率延遲治理 | 質量 | 新鮮度檢索單位

策略性橋樑

轉換不僅僅是技術上的分割;它是一項 策略性決策分塊不只是分割文字。 它是選擇檢索時搜尋的單位,以及後續生成所使用的單位。這表示分塊同時影響召回率、排序、延遲、答案品質、詞元預算與引用可讀性。

  • 語義壓縮: 我們將原始高維度的混亂資料濃縮成針對LLM有限視窗優化的架構,確保『大海撈針』的目標能被成功達成。
  • 運營三要素: 成功的轉換需平衡 資料治理 (權限管理), 模型品質 (雜訊過濾),以及 新鮮度控制 (版本管理)。